Seleccionar y mejorar: la mecánica del post-entrenamiento para razonamiento El post-entrenamiento con RL activa selección y mejora de estrategias. Experimentos con Qwen-2.5 revelan mecanismos clave para escalar razonamiento. 2026-06-12 · 3 min